частотный словарь
1. Конкретная вероятностно-статистическая модель изучаемого подъязыка на лексическом (или соответственно любом другом) уровне.
2. Модель истинного распределения истинных вероятностей (грамматических ожиданий, частоты слов, грамматических форм и т.п.).
3. Модель, отражающая статистические свойства генеральной совокупности (подъязыка) в плане его лексико-грамматической архитектоники.
4. Модель статистической структуры текста, в которой формализуется (табулярно) обратная зависимость между рангом (порядковым номером) словоформы в частотном списке и ее частотой.
5. Последовательность словоформ, снабженных рядом статистико-информационных характеристик, сведенных для обследования в ранжированные
6. некоторой выборки из текстов, в котором каждая словарная единица снабжена заданными информационно-статистическими характеристиками.
7. Представляет собой ранжированный словник (L) выборки (N) с заданными параметрами из массива исследуемых текстов (М), в котором каждая словарная единица (W) снабжена полученными информационно-статистическими характеристиками, в частности: ранг (i), абсолютная частота (F), накопленная абсолютная частота (F*), относительная частота (f*), накопленная относительная частота (Г*), средняя информация (I), накопленная информация (I*), энтропия (H), накопленная энтропия (H*). Иногда могут выделяться и такие параметры, как количество выборки (текстов), в которых встречалась данная словарная единица (n), ее абсолютная частотность по выборкам (F1 - в первой выборке, F2 - во второй и Fn - т.д.), средняя частотность по выборкам, частоты в объединенной выборке (F), употребительность (V), распространенность (D) и т.д.
8. Частотные словари предстают в рамках инженерной лингвистики в трех аспектах: во-первых, они могут быть получены с помощью ЭВМ, т.е. инженерно-лингвистическим способом; во-вторых, они могут служить средством достижения лингвистических целей с помощью ЭВМ; в-третьих, само стати-моделирование лексики или иных языковых уровней частотными словарями является неотъемлемой частью инженерно-лингвистического подхода.
9. Составленная в результате статистического анализа конкретная вероятностно-статистическая модель изучаемого подъязыка на лексическом (и соответственно любом другом) уровне.
10. Модель истинного распределения истинных вероятностей (математических ожиданий, частот слов, грамматических формул и т.п.).
11. Последовательность словоформ или других языковых объектов), зарегистрированных в обследованных текстах, снабженных рядом статистико-информационных характеристик и сведенных для итогового анализа в ранжированные списки.
12. Словарь, содержащий перечень слов данного языка, расположенный по степени их употребительности (по алфавиту, рангу или концу слов) с цифровым указанием частоты встречаемости и других лингвостатистических параметров (данных).
13. Словарь, в котором отобраны наиболее употребительные в речи слова (обычно в пределах нескольких тысяч).